Probabilità e Statistica: La Scienza dell'Incertezza: Dalla Probabilità alla Verosimiglianza: La Scienza dell'Inferenza

L'inferenza statistica segna il passaggio dal predire risultati basati su parametri noti (probabilità) al determinare quali parametri siano più coerenti con i dati osservati (verosimiglianza). Mentre una funzione di densità di probabilità $f(x|\theta)$ descrive la distribuzione dei dati $x$ per un $\theta$ fisso, la funzione di verosimiglianza $L(\theta|x)$ tratta i dati osservati come fissi e fa variare il parametro $\theta$ per quantificare il supporto relativo a diverse ipotesi.

Il Principio dell'Inversione

La funzione di verosimiglianza è spesso espressa nella forma della densità congiunta. Per una distribuzione Normale con varianza fissa, la verosimiglianza è definita da:

$L ( \theta | x_1, \dots, x_n ) = \exp\left( -\frac{n}{2\sigma_0^2} (\bar{x} - \theta)^2 \right)$

Qui valutiamo la "plausibilità" di diversi valori di $\theta$ dati la media campionaria $\bar{x}$. Per trovare il picco di questa plausibilità, utilizziamo Definizione 6.2.2: la verosimiglianza logaritmica $l(\theta | s) = \ln L(\theta | s)$. Questa trasformazione semplifica prodotti di osservazioni indipendenti in somme, rendendo massimizzare modelli complessi computazionalmente fattibile.

Esempio Risolto: L'Indagine Sulla Statura (ESEMPIO 6.3.5)

I Dati

Consideriamo un campione di $n=30$ altezze con una deviazione standard calcolata di $s=2.379$. Utilizzando il modello Normale con localizzazione e scala, cerchiamo di stimare la media vera $\theta$.

Inferenza e Precisione

L'errore standard è calcolato come $s/\sqrt{30} = 0.43434$. Questo valore misura la "affilatura" del nostro picco di verosimiglianza. Un errore standard più piccolo implica un picco più stretto e affilato, che rappresenta una maggiore precisione nelle nostre inferenze riguardo a $\theta$.

Dimensionalità e Vincoli

In scenari complessi come ESEMPIO 6.1.5 (Modelli Multinomiali), dobbiamo tenere conto delle dipendenze logiche. Come notato: "Osserva che è davvero solo bidimensionale, perché non appena conosciamo il valore di due qualsiasi dei $\theta_i$... immediatamente conosciamo il valore del parametro rimanente." Questo vincolo è fondamentale per definire correttamente lo spazio dei parametri $\Omega$.

Fondamenti Asintotici

Il ponte tra verosimiglianza e inferenza si basa sul Teorema del Limite Centrale. Man mano che $n \to \infty$, la distribuzione dei nostri stimatori converge. Specificamente, nell' ESEMPIO 6.5.4 Modello Bernoulliano:

$Z = \frac{\sqrt{n}(\bar{X} - \theta)}{\sqrt{\bar{X}(1 - \bar{X})}} \xrightarrow{D} N(0, 1)$

Questo ci permette di quantificare l'incertezza usando intervalli z e valori p, purché disponiamo di campioni sufficientemente grandi.

🎯 Principio Fondamentale

I metodi di inferenza statistica senza distribuzione richiedono solo assunzioni minime sulla distribuzione campionaria, rendendoli robusti quando la famiglia $\{P_{\theta} : \theta \in \Omega\}$ è molto ampia. Al contrario, i metodi parametrici di verosimiglianza si basano sulla curvatura della verosimiglianza logaritmica, dove l'Informazione di Fisher $nI(\theta)$ determina la varianza della nostra funzione di punteggio.

DOMANDA 1

6.1.2: Supponiamo che i suicidi si verifichino a un tasso $p$ per persona anno (Poisson(Np)). Se osserviamo 22 suicidi in $N=30.345$ anni persona, qual è la funzione di verosimiglianza logaritmica $l(p)$?

$l(p) = -30345p + 22\ln(p) + C$

$l(p) = 30345\ln(p) - 22p + C$

$l(p) = e^{-30345p} p^{22}$

$l(p) = -22p + 30345\ln(p)$

DOMANDA 2

6.3.14: Un intervallo di confidenza al 95% per $\psi(\theta)$ è $(1.23, 2.45)$. C'è evidenza contro $H_0 : \psi(\theta) = 2$?

No, perché 2 è dentro l'intervallo.

Sì, perché 2 non è il centro dell'intervallo.

Sì, al livello $\alpha=0.01$.

Informazioni insufficienti per concludere.

DOMANDA 3

Verifica il terzo momento di $N(\mu, \sigma^2)$. Quale espressione rappresenta $\mu_3 = E_{\theta}(X^3)$?

$\mu^3 + 3\mu\sigma^2$

$\mu^3 + \sigma^3$

$3\mu^2\sigma + \mu^3$

$\mu^3 + 3\sigma^2$

DOMANDA 4

6.5.1: Se $x_1, \dots, x_n \sim N(\mu_0, \sigma^2)$ con $\mu_0$ noto, qual è l'informazione di Fisher $I(\sigma^2)$?

$1 / (2\sigma^4)$

$1 / \sigma^2$

$n / (2\sigma^2)$

$2\sigma^4$

DOMANDA 5

In un modello Multinomiale a k categorie (ESEMPIO 6.1.5), qual è la dimensionalità effettiva dello spazio dei parametri?

$k - 1$

$k$

$k^2$

$1$